今天終於要來介紹 ML Project Lifecycle 的五個步驟了!讓我們來複習一下,根據 Andrew Ng,一個完整的機器學習專案分為五個主要步驟:
我們今天來聊聊第一個步驟吧!
這一步是在學生時期最容易忽略的,因為課堂專案的題目通常非常明確,然而在實務上,解決一個問題往往會有許多解法。舉例而言,若想要提升用戶的轉換率(conversion rate),可以從多個角度下手:例如優化產品的搜尋演算法、改進推薦系統,提升用戶體驗,甚至是像 Matching Cutting 的問題一樣,製作更吸引人的預告片。
Andrew Ng 建議在進行專案的初期可以多想一些不同解法,再評估哪一個是現階段最適合的,而非在一開始就直接投入某一個解法。
而要如何評估專案的可行性?依照是否為全新專案,以及資料的型態而有不同的評估方式。
全新專案
現有專案
衡量一個 ML 專案的成功,往往需要從多個角度來考量,而不同部門關注的指標可能有所不同,要找到彼此共同在意的中間值。這些指標大致可分為三類:
讓我們以 Day 3 介紹的 Netflix 的 match cutting 為例,說明不同部門會如何以不同的指標評估這個技術是否成功。雖然身為資料科學家的我們可能比較關注模型的技術表現和預測能力,但是以公司的角度,還是需要考量其他部門關注的指標,以衡量這個專案的成敗。
商業部門
工程部門
資料科學部門
根據上面的例子,我們可以明確看到不同部門的關注重點不同,除了模型本身的成效以外,其他部門關注更多其他重點,如果只一味地想要提升模型表現,但是假設耗費過多運算時間,或是其實用戶並不喜歡這種模型產出的預告片效果,那都是公司所不樂見的。因此,在業界擔任資料科學家時,不僅要關心機器學習專案本身,也要了解這個模型會被運用在哪裡、用戶是誰、想要解決什麼問題,才能夠更加貼合其他部門的需求,一起打造出一個成功的產品!
那今天的內容就到這邊,歡迎明天同一時間回來,一起來認識 ML 專案生命週期的第二步驟吧!
謝謝讀到最後的你,如果喜歡這系列,別忘了按下喜歡和訂閱,才不會錯過最新更新。
如果有任何問題想跟我聊聊,或是想看我分享的其他內容,也歡迎到我的 Instagram(@data.scientist.min) 逛逛!
我們明天見!